JEEM

JEEM

JEEM

VQA benchmark for four Arabic dialects

JEEM is the first benchmark developed to evaluate vision-language models (VLMs) on image captioning and visual question answering (VQA) in Modern Standard Arabic and four distinct dialects: Jordanian, Emirati, Egyptian, and Moroccan. JEEM measures the cultural diversity of VLMs by comparing performance in Arabic dialects.

JEEM is the first benchmark developed to evaluate vision-language models (VLMs) on image captioning and visual question answering (VQA) in Modern Standard Arabic and four distinct dialects: Jordanian, Emirati, Egyptian, and Moroccan. JEEM measures the cultural diversity of VLMs by comparing performance in Arabic dialects.

Our testing reveals that leading open-source Arabic models struggle with dialect-specific tasks. Better dialect understanding can help models interpret contextual clues in text and images.

JEEM’s data structure

JEEM consists of 2196 annotated images distributed across four dialects:

  • Jordan (Levantine) — 606 images

  • Emirates (Gulf) — 150 images

  • Egypt (Egyptian) — 863 images

  • Morocco (Maghrebi) — 577 images

A smaller cross-cultural set has 100 images annotated by all four dialect teams for comparison

Images cover a range of topics: transport, food and beverages, places, nature, sports, arts and culture, education, technology and others

Our data collection process

  1. Regional-specific images are sourced manually from open-source databases.

  1. Annotator A describes the image in both MSA and their dialect (image caption).

  1. Annotator B formulates questions in their dialect based only on the image caption.

  1. Annotator C reviews the image, caption, and questions, then provides answers in their dialect.

Data samples

MSA

تُظهر الصورة منطقة العقبة الساحلية في الأردن وقت الغروب، والتي تُطل على البحر الأحمر. ويظهر في الصورة مزيجًا من الأشجار والمباني الحديثة والقديمة، حيث يوجد مسجد بمئذنة ذات طراز إسلامي قديم. كما تظهر العديد من القوارب في البحر. وهناك سلسلة جبال في الخلفية.

Jordanian

مبين بالصورة مدينة ساحلية على البحر الأحمر في وقت الغروب، وفي مزيج بين المباني الحديثة والقديمة والاشجار وشوي من المينا ومبين مسجد بمأذنة بطابع اسلامي قديم. و في بالبحر كتير قوارب ويخوت و في كمان جبال في خلفية الصورة. ومبين أنه الصورة من منطقة العقبة في الأردن

قديه كان في ناس على شط البحر؟


الشط مش مبين في الصورة

سارية العلم الاردني مبينة بالصورة؟
سارية العلم مش مبينة بالصورة.

شو كان لون قبة المسجد الي مبين في الصورة؟
المسجد ما اله قبة بس مأذنة

كان في فعاليات مبينة بالصورة؟
كان في قوارب في البحر بس.

الشمس غربت بالصورة ولا لسه مبينة؟
مبين انه الشمس غربت بالصورة.

MSA

تُظهر الصورة منطقة العقبة الساحلية في الأردن وقت الغروب، والتي تُطل على البحر الأحمر. ويظهر في الصورة مزيجًا من الأشجار والمباني الحديثة والقديمة، حيث يوجد مسجد بمئذنة ذات طراز إسلامي قديم. كما تظهر العديد من القوارب في البحر. وهناك سلسلة جبال في الخلفية.

Jordanian

مبين بالصورة مدينة ساحلية على البحر الأحمر في وقت الغروب، وفي مزيج بين المباني الحديثة والقديمة والاشجار وشوي من المينا ومبين مسجد بمأذنة بطابع اسلامي قديم. و في بالبحر كتير قوارب ويخوت و في كمان جبال في خلفية الصورة. ومبين أنه الصورة من منطقة العقبة في الأردن

قديه كان في ناس على شط البحر؟


الشط مش مبين في الصورة

سارية العلم الاردني مبينة بالصورة؟
سارية العلم مش مبينة بالصورة.

شو كان لون قبة المسجد الي مبين في الصورة؟
المسجد ما اله قبة بس مأذنة

كان في فعاليات مبينة بالصورة؟
كان في قوارب في البحر بس.

الشمس غربت بالصورة ولا لسه مبينة؟
مبين انه الشمس غربت بالصورة.

MSA

تُظهر الصورة منطقة العقبة الساحلية في الأردن وقت الغروب، والتي تُطل على البحر الأحمر. ويظهر في الصورة مزيجًا من الأشجار والمباني الحديثة والقديمة، حيث يوجد مسجد بمئذنة ذات طراز إسلامي قديم. كما تظهر العديد من القوارب في البحر. وهناك سلسلة جبال في الخلفية.

Jordanian

مبين بالصورة مدينة ساحلية على البحر الأحمر في وقت الغروب، وفي مزيج بين المباني الحديثة والقديمة والاشجار وشوي من المينا ومبين مسجد بمأذنة بطابع اسلامي قديم. و في بالبحر كتير قوارب ويخوت و في كمان جبال في خلفية الصورة. ومبين أنه الصورة من منطقة العقبة في الأردن

قديه كان في ناس على شط البحر؟


الشط مش مبين في الصورة

سارية العلم الاردني مبينة بالصورة؟
سارية العلم مش مبينة بالصورة.

شو كان لون قبة المسجد الي مبين في الصورة؟
المسجد ما اله قبة بس مأذنة

كان في فعاليات مبينة بالصورة؟
كان في قوارب في البحر بس.

الشمس غربت بالصورة ولا لسه مبينة؟
مبين انه الشمس غربت بالصورة.

Cross-dialect data subset

100 images in the dataset are captioned by speakers of all four dialects for comparison. Some examples demonstrate narrow cultural contexts that are easily misinterpreted by Arabic speakers from other regions. In general, VLMs lack knowledge of regional nuances.

For example, this image of Omani halwa is interpreted as a different sweet depending on the region

Jordanian

Traditional dessert... almonds... pistachios... karawya or dibs

طبق حلو تقليدي... اللوز... الفستق... بالكراوية أو الدبس

Emirati

Omani halwa

حلوى عمانية

Egyptian

Pudding... chocolate... pine seeds

لبودنج... شيكولاتة... صنوبر

Moroccan

Chocolate... caramel... coconut and pistachios

شكلاط... كراميل... بالكوكو و بيسطاش

Model performance

We ran comprehensive evaluations of the latest Arabic VLMs: Maya, PALO, Peacock, AIN, AyaV, and GPT-4.

The evaluation process covered 3 types of metrics:
1. Surface-level and embeddings-based metrics (BLEU, CIDEr, ROUGE, BERTscore)
2. Human evaluation of image captioning
3. LLM-as-a-judge evaluation of image captioning and question answering

Human and LLM-based evaluations focused on the same four criteria: Consistency, Relevance, Fluency, and Dialect Authenticity.

Correlation analysis showed a strong correlation between LLM judgments and human judgments (see our paper).

Human evaluation for image captioning across different VLMs.

Relevance

Human evaluation for image captioning across different VLMs.

Relevance

Human evaluation for image captioning across different VLMs.

Relevance

Question-answering evaluation across different VLMs using ChatGPT as the judge.

Relevance

Question-answering evaluation across different VLMs using ChatGPT as the judge.

Relevance

Question-answering evaluation across different VLMs using ChatGPT as the judge.

Relevance

Summary of results

All VLMs struggle with low-resource dialects like Emirati

GPT-4o performed best overall, but still needs improvements

All VLMs scored lower on JEEM than on English-based benchmarks

Dialect authenticity is low across the board. For details, read our paper

Key insights

JEEM uses everyday images to encourage natural writing and create a realistic test bed. It offers a novel resource for evaluating and improving language models in real-world contexts.

Even frontier models struggle with processing everyday languages, making them less accessible to many language communities.

LLM-as-a-judge approaches correlate well with human judgments, offering scalable and reliable evaluation of VLM performance.

Dialect authenticity is low across the board. For details, read our paper

How smart is your LLM?
Test cultural knowledge with JEEM

How smart is your LLM?
Test cultural knowledge with JEEM

How smart is your LLM? Test cultural knowledge with JEEM

Contributors

Karima Kadaoui, MBZUAI
Hanin Atwany, MBZUAI
Hamdan Al-Ali, MBZUAI
Abdelrahman Mohamed, MBZUAI
Ali Mekky, MBZUAI
Sergey Tilga, Toloka
Natalia Fedorova, Toloka
Dr. Ekaterina Artemova, Toloka
Prof. Dr. Hanan Aldarmaki, MBZUAI
Prof. Dr. Yova Kementchedjhieva, MBZUAI